智能论文笔记

在本文中，我们研究了六种低资源的机器翻译系统的开发和使用，这些机器翻译系统在乌克兰语言和波罗的海国家的每种官方语言之间翻译。我们开发了这些系统，以应对乌克兰军事侵略造成的乌克兰难民危机的升级，希望它们可能对难民和公共行政部门有所帮助。现在，在MT系统公开两个月后，我们分析了它们的使用模式和统计数据。我们的发现表明，拉脱维亚 - 乌克兰人和立陶宛 - 乌克兰系统被整合到波罗的海国家的公共服务中，从而导致了1.27亿个对立陶宛 - 乌克兰系统的翻译句子。在这些发现的激励下，我们通过更好的乌克兰顶级翻译进一步增强了MT系统，并发布了立陶宛 - 乌克兰系统的改进版本。

translated by 谷歌翻译

内容创建者和翻译人员需要合并对不同主题字段和语言的当前和可靠术语的访问。在机器翻译，语音识别，信息提取和其他自然语言处理工具等AI应用中，还需要术语。在这项工作中，我们通过提供开放式术语管理解决方案 - Eurotermbank工具包来促进基于标准的术语资源共享和管理。它允许组织通过参与联合数据库网络来管理和搜索其术语，创建术语收集并在组织内部和外部共享。联合数据库中策划的数据将与欧洲最大的多语言术语资源Eurotermbank自动共享，允许翻译人员和语言服务提供商以及研究人员和学生在其最新版本中访问术语资源。

translated by 谷歌翻译

Statistical and Neural Methods for Cross-lingual Entity Label Mapping in Knowledge Graphs

Gabriel Amaral , Mārcis Pinnis , Inguna Skadiņa , Odinaldo Rodrigues , Elena Simperl

分类：自然语言处理 | 机器学习

2022-06-17

知识库，例如Wikidata Amass大量命名实体信息，例如多语言标签，这些信息对于各种多语言和跨语义应用程序非常有用。但是，从信息一致性的角度来看，不能保证这样的标签可以跨语言匹配，从而极大地损害了它们对机器翻译等字段的有用性。在这项工作中，我们研究了单词和句子对准技术的应用，再加上匹配算法，以将从Wikidata提取的10种语言中提取的跨语性实体标签对齐。我们的结果表明，Wikidata的主标签之间的映射将通过任何使用的方法都大大提高（F1分数最高20美元）。我们展示了依赖句子嵌入的方法如何超过所有其他脚本，甚至在不同的脚本上。我们认为，这种技术在测量标签对的相似性上的应用，再加上富含高质量实体标签的知识库，是机器翻译的绝佳资产。

translated by 谷歌翻译